curl --request POST \
--url https://apigw.mka1.com/api/v1/llm/chat/completions \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data '
{
"model": "meetkai:functionary-urdu-mini-pak",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
],
"temperature": 0.7,
"max_tokens": 100
}
'{
"id": "chatcmpl-abc123",
"object": "chat.completion",
"created": 1704067200,
"model": "meetkai:functionary-urdu-mini-pak",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "The capital of France is Paris."
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 15,
"completion_tokens": 8,
"total_tokens": 23
}
}Depreciado: Use a API de Respostas (/api/v1/llm/responses) em vez disso. Endpoint de conclusão de chat compatível com OpenAI projetado para uso com as bibliotecas de cliente oficiais da OpenAI (Python, Node.js, etc.). Suporta tanto solicitações em streaming quanto não em streaming ao definir o parâmetro stream. Este endpoint lida com a solicitação/resposta diretamente e retorna respostas formatadas no padrão da OpenAI. Use isso ao integrar com o código cliente existente da OpenAI. Nota: O manipulador real é registrado no nível do servidor Bun para desempenho otimizado com o formato de streaming do SDK da OpenAI.
curl --request POST \
--url https://apigw.mka1.com/api/v1/llm/chat/completions \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data '
{
"model": "meetkai:functionary-urdu-mini-pak",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
],
"temperature": 0.7,
"max_tokens": 100
}
'{
"id": "chatcmpl-abc123",
"object": "chat.completion",
"created": 1704067200,
"model": "meetkai:functionary-urdu-mini-pak",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "The capital of France is Paris."
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 15,
"completion_tokens": 8,
"total_tokens": 23
}
}Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Parâmetros de solicitação para criar uma conclusão de chat. Baseado na API de Conclusões de Chat da OpenAI.
ID do modelo a ser utilizado. Você pode usar o formato provider:model ou apenas o nome do modelo com um provedor padrão.
1Uma lista de mensagens que compõem a conversa até agora. É necessária pelo menos uma mensagem.
1Show child attributes
Uma lista de ferramentas que o modelo pode chamar. Use isso para fornecer definições de funções que o modelo pode invocar.
Show child attributes
Controles quais (se houver) ferramenta é chamada pelo modelo. 'nenhuma' significa que o modelo não chamará nenhuma ferramenta. 'automático' significa que o modelo pode escolher. 'obrigatório' força a chamada de uma ferramenta.
Se definido, deltas de mensagens parciais serão enviados como eventos enviados pelo servidor. Nota: Este campo é ignorado pelo endpoint de streaming, usado apenas por endpoints de clientes compatíveis com OpenAI.
Quantas opções de conclusão de chat gerar para cada mensagem de entrada. O padrão é 1.
1 <= x <= 9007199254740991O número máximo de tokens que podem ser gerados na conclusão do chat. O comprimento total dos tokens de entrada e dos tokens gerados é limitado pelo comprimento do contexto do modelo.
1 <= x <= 9007199254740991Qual temperatura de amostragem usar, entre 0 e 2. Valores mais altos como 0,8 tornarão a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornarão mais focada e determinística.
0 <= x <= 2Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com massa de probabilidade top_p. Assim, 0,1 significa que apenas os tokens que compreendem os 10% superiores da massa de probabilidade são considerados.
0 <= x <= 1Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em sua frequência existente no texto até agora, diminuindo a probabilidade do modelo repetir a mesma linha literalmente.
Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em sua aparição no texto até o momento, aumentando a probabilidade do modelo de falar sobre novos tópicos.
Se especificado, o sistema fará o possível para amostrar de forma determinística. O determinismo não é garantido, mas a mesma semente deve, tipicamente, retornar resultados semelhantes.
-9007199254740991 <= x <= 9007199254740991Até 4 sequências em que a API interromperá a geração de tokens adicionais. O texto retornado não conterá a sequência de parada.
Um objeto que especifica o formato que o modelo deve gerar. Configurar para { 'type': 'json_object' } habilita o modo JSON.
Show child attributes
Se deve retornar as probabilidades logarítmicas dos tokens de saída. Se verdadeiro, retorna as probabilidades logarítmicas de cada token de saída retornado no conteúdo da mensagem.
Um inteiro entre 0 e 20 que especifica o número de tokens mais prováveis a serem retornados em cada posição de token, cada um com uma probabilidade log associada. logprobs deve ser definido como verdadeiro se este parâmetro for utilizado.
0 <= x <= 20Um identificador único que representa seu usuário final, o que pode ajudar a monitorar e detectar abusos. Também é usado para rastreamento de uso e análises.
Opções para resposta em streaming. Defina isso somente quando você definir stream: true.
Show child attributes
Se deve habilitar a chamada de funções em paralelo durante o uso da ferramenta.
Restringe o esforço em raciocínio para modelos de raciocínio. Menor esforço resulta em respostas mais rápidas e menos tokens de raciocínio. Valores suportados: 'nenhum', 'mínimo', 'baixo', 'médio', 'alto', 'muito alto' ou null.
none, minimal, low, medium, high, xhigh Quando verdadeiro, o gateway analisa a complexidade da solicitação e direciona automaticamente entre as variantes quantizadas, MoE e densas da família de modelos solicitados.
Resposta de conclusão de chat bem-sucedida. Retorna JSON para não-streaming (stream=false) ou Eventos Enviados pelo Servidor para streaming (stream=true).
Representa uma resposta de conclusão de chat da API
Um identificador único para a conclusão do chat
O tipo de objeto, sempre 'chat.completion'
O timestamp Unix (em segundos) de quando a conclusão do chat foi criada
-9007199254740991 <= x <= 9007199254740991O modelo utilizado para a conclusão do chat
Uma lista de opções de conclusão de chat. Pode haver mais de uma se n for maior que 1.
Show child attributes
Estatísticas de uso para a solicitação de conclusão
Show child attributes
Esta impressão digital representa a configuração do backend com a qual o modelo é executado. Pode ser usada em conjunto com o parâmetro de solicitação seed para entender quando alterações no backend foram feitas que podem impactar o determinismo.
Esta página foi útil?